通常,在加固学习(RL)中,奖励会随着时间的流逝而使用指数函数来模拟时间偏好,从而限制了预期的长期奖励。相反,在经济学和心理学中,已经表明人类通常采用双曲线折现方案,当假定特定的任务终止时间分布时,这是最佳的。在这项工作中,我们提出了一种基于连续的基于模型的强化学习的理论,将其推广到任意折扣功能。该公式涵盖了存在非指数随机终止时间的情况。我们得出了表征最佳策略的汉密尔顿 - 雅各比 - 贝尔曼(HJB)方程,并描述了如何使用搭配方法来求解它,该方法使用深度学习进行函数近似。此外,我们展示了如何解决逆RL问题,其中人们试图恢复给定决策数据的折现功能的属性。我们在两个模拟问题上验证了我们提出的方法的适用性。我们的方法为分析在顺序决策任务中分析人类折现的道路开辟了道路。
translated by 谷歌翻译
近年来,强化学习及其多代理类似物在解决各种复杂控制问题方面取得了巨大的成功。然而,在其理论分析和算法的经验设计中,多机构的增强学习仍然具有挑战性,尤其是对于大量的体现的机器人剂,在这些机器人链中仍然是确定的工具链仍然是积极研究的一部分。我们使用新兴的最先进的均值控制技术,以将多机构群体控制转换为更经典的单位分布控制。这允许从单位加强学习的进步中获利,以假设代理之间的相互作用较弱。结果,平均场模型被带有体现的,身体碰撞的代理的真实系统的性质违反。在这里,我们将避免碰撞和对平均场控制的学习结合到一个统一设计智能机器人群行为的统一框架。在理论方面,我们为连续空间和避免碰撞的一般平均场控制提供了新颖的近似保证。从实际方面来说,我们表明我们的方法的表现优于多代理强化学习,并允许在模拟和真实无人机群中避免碰撞的同时进行分散的开环应用程序。总体而言,我们为群体行为设计框架提出了一个框架,该框架既有数学上有充分的基础,而且实际上有用,从而实现了原本棘手的群问题的解决方案。
translated by 谷歌翻译
多机构强化学习(MARL)领域已通过采用各种学习方法来控制挑战的多代理系统。这些方法中的许多方法都集中在Marl问题的经验和算法方面,并且缺乏严格的理论基础。另一方面,Graphon Mean Field游戏(GMFGS)为学习问题提供了可扩展且数学上有充分根据的方法,涉及大量连接的代理。在标准的GMFG中,代理之间的连接是随着时间的推移而无方向性,未加权和不变的。我们的论文介绍了彩色的Digraphon均值野外游戏(CDMFG),该游戏允许在随着时间的推移随着时间的推移而自适应的代理之间进行加权和定向链接。因此,与标准GMFG相比,CDMFG能够建模更复杂的连接。除了进行严格的理论分析(包括存在和融合保证)外,我们还提供了学习计划,并通过流行病模型和金融市场中系统性风险的模型来说明我们的发现。
translated by 谷歌翻译
尽管在过去几年中,多机构增强学习(MARL)的领域取得了长足的进步,但解决了大量代理的系统仍然是一个艰巨的挑战。 Graphon均值现场游戏(GMFGS)可实现对MARL问题的可扩展分析,而MARL问题原本是棘手的。通过图形的数学结构,这种方法仅限于密集的图形,这些图形不足以描述许多现实世界网络,例如幂律图。我们的论文介绍了GMFGS的新型公式,称为LPGMFGS,该公式利用了$ l^p $ Graphons的图理论概念,并提供了一种机器学习工具,以有效,准确地近似于稀疏网络问题的解决方案。这尤其包括在各个应用领域经验观察到的电力法网络,并且不能由标准图形捕获。我们得出理论上的存在和融合保证,并提供了经验示例,以证明我们与许多代理的系统学习方法的准确性。此外,我们严格地将在线镜下降(OMD)学习算法扩展到我们的设置,以加速学习速度,允许通过过渡内核中的平均领域进行代理相互作用,并凭经验显示其功能。通常,我们在许多研究领域中为大量棘手的问题提供了可扩展的,数学上有充分的机器学习方法。
translated by 谷歌翻译
大型人口系统的分析和控制对研究和工程的各个领域引起了极大的兴趣,从机器人群的流行病学到经济学和金融。一种越来越流行和有效的方法来实现多代理系统中的顺序决策,这是通过多机构增强学习,因为它允许对高度复杂的系统进行自动和无模型的分析。但是,可伸缩性的关键问题使控制和增强学习算法的设计变得复杂,尤其是在具有大量代理的系统中。尽管强化学习在许多情况下都发现了经验成功,但许多代理商的问题很快就变得棘手了,需要特别考虑。在这项调查中,我们将阐明当前的方法,以通过多代理强化学习以及通过诸如平均场游戏,集体智能或复杂的网络理论等研究领域进行仔细理解和分析大型人口系统。这些经典独立的主题领域提供了多种理解或建模大型人口系统的方法,这可能非常适合将来的可拖动MARL算法制定。最后,我们调查了大规模控制的潜在应用领域,并确定了实用系统中学习算法的富有成果的未来应用。我们希望我们的调查可以为理论和应用科学的初级和高级研究人员提供洞察力和未来的方向。
translated by 谷歌翻译
我们考虑在完全合作的多代理系统中进行沟通,在该系统中,代理人对环境有部分观察,并且必须共同采取行动以最大程度地提高整体奖励。我们有一个离散的时间排队网络,在该网络中,代理数据包仅基于当前队列长度的部分信息来排队。队列的缓冲区容量有限,因此当数据包被发送到完整队列时会发生掉落。在这项工作中,我们实施了一个通信渠道,使代理商共享其信息以降低数据包下降率。为了有效的信息共享,我们使用一个名为ATVC的基于注意的通信模型,以选择其他代理的信息信息。然后,代理使用变异自动编码器,VAE和Experts,POE,模型的组合来推断队列状态。最终,代理商学习了他们需要进行的交流以及与谁进行交流,而不是一直与所有人进行交流。我们还从经验上表明,ATVC能够推断出队列的真实状态,并导致一项胜过现有基准的政策。
translated by 谷歌翻译
近年来,数据中心和云服务的容量和并行处理能力大大提高。为了充分利用所述分布式系统,必须实现并行排队架构的最佳负载平衡。现有的最新解决方案未能考虑沟通延迟对许多客户的非常大系统的行为的影响。在这项工作中,我们考虑了一个多代理负载平衡系统,其中包含延迟信息,包括许多客户(负载平衡器)和许多并行队列。为了获得可处理的解决方案,我们通过精确离散化在离散时间内将该系统建模为具有扩大状态行动空间的平均场控制问题。随后,我们应用政策梯度增强学习算法来找到最佳的负载平衡解决方案。在这里,离散时间系统模型包含了同步延迟,在该延迟下,在所有客户端,队列状态信息同步广播和更新。然后,我们在大型系统中为我们的方法提供了理论性能保证。最后,使用实验,我们证明了我们的方法不仅可扩展,而且与最新的Join-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the warriant相比,还表现出良好的性能(JSQ)和其他在同步延迟的情况下政策。
translated by 谷歌翻译
我们提出了一种建模大规模多机构动力学系统的方法,该系统不仅可以使用平均场游戏理论和超图像的概念在成对的代理之间进行相互作用,而且这些概念是大型超透明仪的限制。据我们所知,我们的工作是HyperGraphs平均野外游戏的第一部作品。加上扩展到多层设置,我们获得了非线性,弱相互作用的动力学剂的大型系统的限制描述。从理论方面来说,我们证明了由此产生的超图平均野外游戏的良好基础,显示出存在和近似NASH属性。在应用方面,我们扩展了数值和学习算法以计算超图平均场平衡。为了从经验上验证我们的方法,我们考虑了一个流行病控制问题和社会谣言传播模型,我们为代理人提供了将谣言传播到不知情的代理人的内在动机。
translated by 谷歌翻译
致密的大图限制和平均野外游戏的最新进展已开始实现具有大量代理的广泛动态顺序游戏的可扩展分析。到目前为止,结果已经主要限于Graphon平均现场系统,其具有连续延时扩散或跳跃动态,通常没有控制,并且很少专注于计算方法。我们提出了一种新的离散时间制定,用于Graphon均值野外游戏,作为具有薄弱相互作用的非线性密集图Markov游戏的极限。在理论方面,我们在足够大的系统中给出了Graphon均值场解决方案的广泛且严格的存在和近似性质。在实践方面,我们通过引入代理等价类或将Graphon均值字段系统重新格式化为经典平均字段系统来提供Graphon均值的一般学习方案。通过反复找到正则化的最佳控制解决方案及其生成的平均字段,我们成功地获得了与许多代理商的其他不可行的大密集图游戏中的合理的近似纳入均衡。经验上,我们能够证明一些例子,即有限代理行为越来越接近我们计算的均衡的平均场行为,因为图形或系统尺寸增长,验证了我们的理论。更一般地说,我们成功地与序贯蒙特卡罗方法结合使用政策梯度强化学习。
translated by 谷歌翻译
碰撞避免算法对许多无人机应用程序具有核心兴趣。特别地,分散的方法可以是在集中通信变得过艰巨的情况下启用强大的无人机群解决方案的关键。在这项工作中,我们从椋鸟(Ventgaris)的群群中汲取生物启示,并将洞察力应用于结尾学的分散碰撞避免。更具体地,我们提出了一种新的,可伸缩的观察模型,其仿生最近邻的信息约束,导致快速学习和良好的碰撞行为。通过提出一般加强学习方法,我们获得了基于端到端的学习方法,以通过包装收集和形成变化等任意任务集成碰撞避免。为了验证这种方法的一般性,我们通过中等复杂性的运动模型成功地应用了我们的方法,建模势头,仍然可以与标准PID控制器结合使用直接应用。与事先作品相比,我们发现,在我们足够丰富的运动模型中,最近的邻居信息确实足以学习有效的碰撞行为。我们的学习政策在模拟中进行了测试,随后转移到现实世界的无人机,以验证其现实世界的适用性。
translated by 谷歌翻译